AI Agent表現不如預期新研究揭不到5%任務能獨力完成

#AI Agent

#人工智慧

#Scale AI

#Remote Labor Index

#自動化

Jun 17, 2026 10:43 PM Wednesday

商傳媒｜責任編輯／綜合外電報導

摘要

一份由 Scale AI 與 AI安全中心共同發布的最新研究顯示，目前最先進的 AI Agent 在獨立完成數位工作任務上的成功率不到5%，凸顯其可靠性仍不足，與部分人力資源主管對其全面自動化的預期存在落差。

一份由數據標註公司 Scale AI 與 AI安全中心共同發布的最新研究指出，目前最先進的 AI Agent（人工智慧代理）在獨立完成真實世界數位工作任務方面的成功率低於 5%。這項名為 Remote Labor Index（RLI）的基準測試，旨在評估 AI Agent 是否能像人類專業工作者一樣，從頭到尾可靠地完成有償任務，並達到客戶要求的水準。

RLI 的任務來源涵蓋 Upwork 等自由工作者平台，橫跨影片剪輯、標誌與傳單設計、建築、資料分析、珠寶設計及遊戲開發等 23 個不同領域。評估人員會將 AI 生成的成果與人類產出的成果進行比較，並判斷客戶是否願意為此付費。

根據研究數據，RLI 於 2025 年底推出時，表現最佳的 AI Agent 僅能將 2.5% 的專案自動化至專業水準。截至 2026 年中旬，此成功率變化不大，仍在 5% 以下。目前排名最高的 AI Agent 為透過 CoWork 平台運作的 claude-opus-4-6，成功率約為 4.17%。研究發現，AI Agent 的低自動化率並非由於其產出品質差，而是無法可靠地完成端到端的任務。

Scale AI 資安與政策研究主管 Udari Madhushani Sehwag 指出，AI Agent 的關鍵瓶頸在於可靠性。她表示，Agent 可以完成任務中的部分環節，但大部分情況下無法獨立可靠地完成整個任務。她提到，AI Agent 仍存在三大能力缺口：理解任務簡報、完成所有組成部分，以及將這些部分組合成一個連貫的整體。Sehwag 預計 AI Agent 的能力不會快速提升，並強調這與 2025 年底以來的觀察一致。

儘管有這些限制，根據 Salesforce 對 200 位人力資源長（CHRO）的調查，有高達 89% 的受訪者相信 AI Agent 將有助於重新分配員工職責，並預期約 23% 的員工將因此技術而重新部署。然而，Sehwag 建議組織應基於現有證明來制定 AI Agent 決策，而非過度依賴對其未來能力的預測。她強調，AI Agent 應被視為「協作工具（copilot）」，協助人類更有效率地完成任務，而非取代人類來實現完全自動化。目前，AI Agent 的最佳用途仍是「增強輔助（augmentation）」，而非「自動化（automation）」，且在客戶端流程中，人類監督在每個階段都至關重要。RLI 的數據為企業在人力規劃上提供了實質的參考，幫助組織更理性地看待 AI Agent 的實際能力。

AI Agent表現不如預期 新研究揭不到5%任務能獨力完成

AI Agent表現不如預期新研究揭不到5%任務能獨力完成